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fü xe. 搜索 引擎 是 根据 用 户 查询 对 相关 网 页 进行 排序 。 为 了 提高 网 页 排序 的 准确 性 ， 提 出 一 种 基于 g- 贪 林学 习 和 用 
户 点 击 行为 的 网 页 排序 算法 。 首 先 ， 根 据 用 户 查询 ， 通 过 轮 盘 赌 策略 向 用 户 推荐 相关 网 页 列表 ; 然后 ， 根 据 用 户 点 击 
网 页 的 行为 进行 8- 贪 禁 学 习 ， 计 算得 到 排序 系统 中 的 强化 信号 ， 通 过 奖励 和 惩罚 机 制 为 每 个 网 页 计算 相关 性 程度 值 ; 
最 后 ， 根 据 相 关 性 程度 对 网 页 进行 重新 排序 。 随 着 用 户 反 馈 的 信息 越 来 越 多 ， 相 关 网 页 会 排列 在 列表 的 最 高 等 级 上 。 
实验 结果 表明 ， 提 出 的 算法 能 够 准确 推荐 出 相关 网 页 ， 在 PQ@n、NDCG 和 MAP 性 能 指标 上 都 获得 了 较 优 的 性 能 。 
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Abstract: Search engine is a tool that ranks related Web pages based on user queries. In order to improve the accuracy of Web 
page ranking, this paper proposed a Web page ranking method based on e-greedy learning and user click behavior. Firstly, it 
recommend to the user a list of related Web pages by the roulette strategy according to the user query. Then, it performed e-- 
greedy learning based on the behavior of the user clicking on the Web page, and calculated the fortified signal in the ranking 
system. After that, it calculated the relevancy degree value for each Web page through reward and punishment mechanisms. 
Finally, it reordered the network according to the degree of relevance. As more and more information is fed back by users, related 
Web pages would be ranked at the highest level ofthe list. The experimental results show that the proposed method can accurately 
recommend the relevant Web pages and obtain better performance on P(gn, NDCG and MAP performance indexes. 
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同 ， 可 以 利用 用 户 的 兴趣 来 解决 查询 的 模糊 性 和 内， 所 以 基于 


户 反 馈 的 算法 可 以 提供 很 好 的 结果 。 文 献 [5] 研 究 表明 ,者 


网 页 搜索 引擎 为 网 络 用 户 搜 索 信息 提 供 了 很 大 的 便利 。 搜 。 ”点击 网 页 搜索 结果 的 频率 分 布 方面 ， 


au 


户 更 倾向 于 点 击 排 


果 列 表 。 搜 索引 擎 面临 的 主要 挑战 就 是 对 网 页 进行 


索 过 程 从 用 户 提供 查询 开始 ， 通 过 搜索 算法 为 用 户 提供 一 个 结 ”一 级 的 网 页 ， 网 页 相对 的 点 击 数量 随 着 排名 降低 而 下 降 


ril 
了 排序 ， 即 根据 其 相关 性 从 高 。 这 表明 ， 即 使 排 在 搜索 结果 中 的 高 级 别 网 页 是 无 关 的 ， 


排序 算法 用 来 对 用 户 查询 结果 进 和 
到 低 进行 降序 排列 由。 会 点 击 。 因 此 ， 用 户 点 击 网 页 的 行为 ， 本 质 上 是 有 干扰 的 。 即 
前 提出 的 网 页 排序 方法 根据 内 容 和 连接 性 分 为 两 大 类 证 。 用户 经 常 点 击 低 质量 的 结果 ， 仅 有 82% 的 被 点 击 的 网 页 与 查询 


其 中 


F 确 排序 。 用 户 点 击 第 二 、 第 三 和 第 四 级 网 页 的 概率 约 6096 5096 8I 3096 


于 内 容 的 方法 根据 网 页 内 容 进 行 推荐 ， 而 且 网 页 内 容 由 其 创 ”主题 相关 中。 但 尽管 如 此 ， 用 户 的 点 击 可 成 为 涉及 网 页 排序 的 


建 者 决定 。 基 于 连接 的 方法 则 分 为 独立 于 查询 和 依赖 于 查询 两 有 用 知识 。 男 一 方面 ， 机 器 学 习作 为 一 种 强 有 力 的 工具 ， 可 以 
种 。 这 种 方法 存在 的 问题 是 主流 页 面 会 更 流行 ， 用 户 不 会 看 到 创造 出 比 基 本 方法 更 好 的 排序 结果 ， 而 如 何在 训练 后 产生 一 个 
其 他 新 的 相关 页 面 中 。 组 合 方法 则 同时 注重 内 容 和 连接 性 两 方 适合 新 查询 排序 的 模型 ， 则 是 一 个 研究 重点 。 

面 ， 可 以 减少 这 些 问 题 的 出 现 。 本 文 提出 了 一 种 基于 8- 贪 禁 学 习 和 用 户 行为 反馈 的 排序 
一 些 情况 下 ， 在 输入 类 似 查询 时 ， 用 户 的 意图 却 不 一 定 相 算法 , 称 为 GLUB-Rank。 为 了 了 解 用 户 的 兴趣 ， 用户 需 要 参与 
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到 学 习 过 程 中 。8- 贪 禁 学 习 是 强化 学 习 的 一 种 ， 可 以 在 不 需要 
基础 知识 的 情况 下 ， 获 得 与 环境 相关 的 知识 ， 选 择 网 页 向 用 户 
为 下 一 个 类 似 的 查询 提供 适当 的 排序 。 

1 ”相关 研究 


近年 来 ， 基 于 学 习 的 排序 已 经 成 为 信息 检索 领域 的 研究 热 
于 学 习 的 排序 方法 分 为 逐 点 法 、 成 对 法 和 列表 法 三 个 大 
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go 
Bu 


逐 点 法 是 学 习 方 法 中 最 简单 的 方法 ， 这 种 方法 的 思想 是 将 
每 个 “查询 -网 页 ”对 映射 到 相关 的 数字 值 。 线 性 回归 dinear 
regression) 是 一 种 基于 统计 学 的 逐 点 法 ， 其 则 在 学 习 一 个 线性 
排序 函数 ， 其 中 将 特征 向 量 映 射 到 实际 值 。 文 献 [7] 提 出 了 一 种 
基于 概率 的 算法 : McRank, 包括 多 重 分 类 的 增 量 树 算法 和 有 序 
的 多 重 分 类 , 该 方法 使 用 组 合 排序 来 最 小 化 错误 排列 对 的 数量 。 
文献 [8] 提 出 的 FP-Rank 算法 结合 了 PageRank 和 TF-IDF 特征 ， 
并 利用 了 用 户 反 馈 。 此 方法 基于 三 个 组 件 进行 自 适应 i 
接 性 ， 内 容 和 用 户 行为 。 其 中 代理 的 目标 是 最 大 化 高 质量 页 面 
上 的 点 击 次 数 。 文献 [9] 提 出 的 DistanceRank 算法 是 基于 学 习 来 
计算 页 面 对 数 距离 的 算法 ， 其 目的 是 尽量 减少 总 损失 ， 距 离 计 
算 过 程 持 续 到 它 收敛 到 一 个 常数 值 。 
在 成 对 法 中 ， 学 习 的 样本 是 网 页 对 ， 而 学 习 问 题 是 根据 分 
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2 2- 贪 焚 学 习 


强化 学 习 是 一 种 通过 奖励 或 惩罚 来 训练 代理 执行 某 一 行为 
的 方法 ， 而 不 需要 指定 该 行为 对 代理 的 作用 。 其 目标 是 找到 最 


优 策略 ， 以 使 所 有 状态 的 预期 值 最 大 化 。 强 化 学 习 的 框架 如 图 
1 所 示 。 
强化 学 习 有 两 种 主要 策略 : 一 种 是 利用 演化 算法 在 行为 空 


H 


闻 中 寻找 行为 ， 从 而 达到 目标 ， 另 
规划 。 


种 是 使 用 统计 方法 和 动态 


状态 Si 


图 1 强化 学 习 的 杠 
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- 贪 禁 学 习 是 强化 学 习 方法 之 一 。 本 文 利用 6 - 贪 禁 方法 


来 学 习 用 户 点 击 反馈 ， 以 此 给 出 推荐 模型 。 在 这 种 方法 中 ， 代 
时 能 够 在 没有 完美 环境 模型 下 选择 最 优 策略 。 环 境 进入 下 一 个 
状态 ， 并 将 强化 信号 提供 给 代理 。 此 时 会 产生 一 个 行为 值 ， 这 


类 器 制定 的 。 这 种 方法 从 列表 中 提取 网 页 对 ， 每 个 网 页 对 都 有 
一 个 标签 ， 其 考虑 到 了 两 个 网 页 之 间 的 部 分 相关 性 。 然 后 ， 用 
标号 数据 对 模型 进行 分 类 , 并 在 排序 中 进行 模型 训练 。 文 献 [10] 


个 值 是 对 未 来 行为 状态 所 受奖 励 的 估计 。 


4 Q, (a) 表示 在 时刻 的 行为 a 的 估计 值 ，Q; 表示 在 


提出 了 基于 学 习 的 RankBoost 算法 ， 该 算法 的 作用 类 似 于 基于 
聚 类 网 页 的 AdaBoost 算法 , 唯一 的 区 别 是 RankBoost 是 在 一 对 
网 页 上 定义 的 。 文献 [11] 提 出 了 一 种 基于 学 习 的 成 对 算法 , 称 为 
RankSVM。 其 用 SVM 对 网 页 的 二 进 制 分 类 问题 进行 排序 ， 点 
击 排序 网 页 的 概率 直接 关系 到 查询 一 网 页 的 相关 性 。 

与 其 他 两 种 方法 相 比 ， 列 表 法 效率 更 高 。 假 定 所 以 网 页 对 
或 网 页 点 具有 特定 的 特征 ,特征 选择 在 信息 检索 中 是 有 偏差 的 ， 
且 依 赖 大 量 的 查询 。 存 在 一 种 名 为 ListNet 的 列表 式 学 习 方 法 
U2], CAEH Kk 个 高 概率 的 排序 结果 来 优化 损失 函数 ， 采 用 神经 
网 络 作为 模型 , 用 梯度 下 降 法 代替 优化 算法 。 但 是 ListNet 算法 
具有 较 高 的 时 间 复 杂 度 。 文 献 [13] 提 出 了 BoltzRank 排序 方法 ， 
它 使 用 条 件 概率 分 布 ， 将 网 页 分 级 到 用 户 的 查询 ， 其 思想 是 为 
网 页 的 排列 和 性 能 评价 预测 定义 一 个 概率 分 布 。 文 献 [14] 提 出 
了 一 种 基于 PSO 的 SwarmRank 排名 算法 ， 该 算法 试图 学 习 许 
多 排序 函数 的 线性 组 合 ， 其 目标 是 优化 排序 的 平均 准确 率 性 能 
指标 。 文 献 [15] 提 出 了 一 种 基于 学 习 自 动机 的 排序 算法 LRUF, 
其 利用 了 用 户 反馈 信息 。LRUF 算法 根据 排序 列表 中 的 每 个 网 
页 的 位 置 进行 排序 ， 并 对 更 新 的 评分 进行 排序 。 在 此 方法 中 ， 
当 网 页 被 选择 的 概率 很 低 时 ,会 被 删除 , 并 被 其 他 网 页 所 取代 ， 
从 而 减少 了 “ 富 者 愈 富 ” 的 效应 。 因 为 这 种 算法 需要 计算 每 个 
步骤 中 所 有 网 页 的 概率 ， 所 以 算法 的 计算 复杂 度 较 高 。 
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时 刻 选 定 的 行为 。 2 - 贪 禁 方法 通过 使 | 


概率 1- € 来 选 定 一 个 


具有 最 高 估计 值 的 行为 ， 即 a; = arg max, Q, (a)。 


在 选择 行为 4 之 后 接收 奖励 值 r(4a) ， 并 更 新 行为 4 的 Q 
值 ，Q 值 更 新 公式 如 下 : 

Q, (a) 2 Q,(a) - BI, (a2) -Q,(a)] 0) 
其 中 : naa) 为 行为 4 在 k 时 刻 的 奖励 ; PB.(0< B, € 1) 7s 
一 个 步 长 大 小 参数 。 
固定 步 长 p 适用 于 静态 过 程 。 


M 


f 93; 1 时 ， 可 获 最 近 


的 奖励 ; 当 尼 接近 0 时， 可 获得 先前 的 奖励 。 一 般 将 静态 网 络 


的 B 设 为 0.1。 静 态 网 络 中 ，/ 若 满足 如 下 条 件 ， 则 可 以 确保 
收敛 到 概率 为 1。 


A BY eo Q) 
k=1 k=1 


[Eit B, —1/ (k - 1) 满足 条 件 式 2)， 且 可 以 得 到 过 去 奖 


励 的 平均 值 。 当 有 友 = 户 时 ， 估 计 过 程 将 不 会 完全 收敛 ， 会 根 


据 最 新 观测 的 奖励 值 而 变化 。B. = CD 时 ， 所 形成 的 奖励 的 加 
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权 平 均 为 
k+l 


CO=d-D) Q, (a) + RU - BY n(a) G) 


式 (1) 所 表述 的 传统 & - 贪 焚 学 习 策略 中 由 于 固定 D 参数 ， 
致使 其 易 陷入 局 部 最 优 。 而 式 G3) 所 表述 的 改进 型 学 习 策略 中 ， 
设置 A 二 1/(k 十 1) ， 使 其 能 够 根据 学 习 进 程 适时 调整 比例 参 
数 , 使 算法 能 够 跳出 局 部 最 优 , 直到 获得 全 局 最 优 为 止 。 为 此 ， 
本 文采 用 了 这 种 改进 型 的 6 - 仿 禁 学 习 策略 。 


3 ”提出 的 网 页 排序 算法 : GLUB-Rank 


本 文 提出 了 一 种 基于 强化 学 习 和 用 户 反 馈 的 排序 算法 ， 利 
用 了 查询 一 网 页 对 的 数据 特征 和 列表 法 。 


该 算法 的 思想 是 对 查询 一 网 页 对 的 特征 进行 评估 ， 每 个 特 
征 代表 网 页 或 查询 的 某 个 方向 ， 并 使 用 多 个 特征 来 涵盖 缺失 。 
换 句 话说， 与 用 户 观点 相关 的 页 面 可 以 具有 与 其 他 相关 页 面 类 
似 的 内 容 或 链接 ,然后 , 考虑 多 个 相关 特征 来 提供 额外 的 结果 ， 
这 就 减少 了 单独 使 用 每 个 特征 的 缺点 。 
3.1 网 页 排序 基本 步 又 
环境 包含 了 用 户 和 网 页 。 作 为 代理 的 排序 系统 会 选择 10 个 
网 页 ， 并 将 其 显示 给 用 户 。 根 据 用 户 的 点 击 行为 ， 网 页 特征 的 
重要 程度 会 根据 特定 策略 进行 奖励 或 惩罚 。 在 此 过 程 中 ， 每 次 
和 迭代 都 会 将 网 页 排序 到 一 个 用 户 的 推荐 列表 中 。 
排序 的 第 一 阶段 首先 从 网 页 中 选择 10 个 网 页 并 向 用 户 显 
示 , 这 种 网 页 的 选择 是 利用 贪 禁 方法 和 旋转 轮 策略 进行 .首先 ， 
在 列表 的 任何 位 置 都 有 选择 网 页 的 概率 ， 而 且 随 着 时 间 的 推移 
选择 前 10 个 网 页 的 概率 会 增加 。 因为 在 此 时 ,相关 网 页 已 移动 
到 列表 项 部 ， 以 此 提高 获得 相关 网 页 的 有 效 性 和 减少 对 环境 的 
搜索 。 
第 二 步 是 根据 网 页 的 重要 程度 行为 值 ) 确 定 网 页 情况 ， 
即 根据 行为 值 来 选择 网 页 。 
然后 ， 用 户 点 击 其 中 一 些 网 页 。 检 查 被 点 击 的 网 页 ， 如 果 
网 页 是 相关 且 网 页 特征 反映 了 相关 性 ， 那 么 重要 程度 会 相应 的 
增加 ， 如 果 网 页 是 不 相关 的 且 网 页 特征 也 显示 不 相关 性 ， 那 么 
重要 程度 会 相应 的 减少 。 
如 果 网 页 是 相关 的 ， 那 么 与 网 页 一 查询 对 相关 的 用 户 反馈 
特征 会 被 奖励 ， 否 则 将 被 惩罚 。 在 每 个 步 又 中 ， 当 用 户 反馈 是 
其 所 看 到 的 最 后 一 个 网 页 时 ， 网 页 特征 的 重要 程度 不 会 被 奖励 
或 惩罚 。 当 时 间 达 到 截止 时 间或 用 户 查 询 失效 时 ， 该 重复 过 程 
结 


值得 注意 的 是 ， 在 网 页 排序 中 ， 如 果 有 更 多 的 网 页 特征 ， 
则 可 以 更 好 地 描述 网 页 ,进而 有 助 于 区 分 相关 和 不 相关 的 网 页 。 
32 用 户 反馈 
用 户 点 击 网 页 是 用 户 反 馈 的 主要 方 
受到 干扰 ， 即 用 户 时 常 不 能 准确 地 点 


cr 


式 。 用 户 的 点 击 行为 会 
击 相关 网 页 ， 仍 然 会 点 击 


e 
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最 高 级 别 的 无 关 网 页 。 这 表明 即使 列表 中 的 第 一 级 网 页 与 查询 


不 相关 ， 但 这 些 网 页 的 点 击 频率 还 是 很 高 。 

在 这 种 情况 下 ， 根 据 所 获得 的 频率 ， 考 虑 了 一 种 包含 对 列 
表 顶 部 10 个 网 页 进行 点 击 的 11 种 情况 和 10 种 概率 的 统计 模 
型 。 

3.3 结合 2 - 贪 禁 学 习 和 用 户 反 馈 的 网 页 排序 

在 提出 的 GLUB-Rank 算法 中 ， 假 定 强化 信号 是 恒定 的 ， 
且 根据 相同 的 特征 和 相关 程度 ， 在 分 类 网 页 列表 中 根据 所 点 
击 网 页 的 位 置 来 接收 强化 信号 。 同 时 也 考虑 了 一 些 其 他 特征 来 
确定 特征 的 重要 程度 。 这 些 特征 更 好 地 描述 了 网 页 ， 提 升 了 网 
页 重要 程度 评估 的 准确 性 。 


GLUB-Rank 算法 步骤 如 下 : 首先 ， 用户 输 入 查询 ， 排 序 系 
统 作为 代理 向 用 户 显示 网 页 列表 。 每 个 列表 根据 网 页 特征 进行 


排列 ,并且 在 学 习 过 程 中 , 这 些 网 页 特征 的 位 置 是 不 会 改变 的 。 
用 户 点 击 网 页 ， 奖 励 或 惩罚 机 制 对 点 击 网 页 的 特征 进行 奖励 。 
排序 系统 通过 操作 选择 要 显示 的 网 页 ， 并 向 用 户 显 示 主 要 网 页 
列表 。 

主 列表 中 的 网 页 是 根据 优先 级 , 使 用 s- 贪 禁 方 法 所 选择 的 。 


随 着 时 间 的 推移 ， 选 择 前 10 个 网 页 的 概率 随 着 e 的 增加 而 增 
加 。 起初 由 于 反馈 知识 匮乏 ,sg 的 值 为 零 , 概率 选择 类 似 于 轮 盘 
赌 操作 ， 根 据 列表 中 网 页 优先 级 确定 网 页 位 置 。 随 着 用 户 对 环 
简 的 了 解 越 来 越 多 ， 相 关 网 页 会 排列 在 最 高 等 级 上 ， 并 将 
更 高 的 优先 级 。 另 一 方面 ， 随 着 时 间 的 推移 ， 根 据 从 环境 中 获 
取 的 知识 ， 使 得 下 层 网 页 被 认为 是 不 相关 的 网 页 ， 因 此 ， 这 些 
网 页 的 被 选择 的 概率 接近 于 零 。 网 页 选择 的 概率 根据 以 下 公式 


B 


2*(*Ge1-3)-(*) i. cr, v*t 
m(x)24 n*(B*(n-lD-2*v*r) " B (4) 
O ,otherwise 
(fO eL 5 tere: esed) 
px) = i 


osmo On Oe 
n 


(5) 
其 中 : mx) 表示 增 量 轮 盘 方法 中 的 概率 , 随 着 时 间 的 推移 ， 网 
页 处 于 低级 别 的 概率 变 为 零 ，* 为 网 页 在 有 序 网 页 列表 中 显示 
的 位 置 ，7 为 每 个 相关 查询 的 网 页 数量 ，v 的 初始 值 等 于 1 且 
线性 增长 ; t 是 时 间 , 每 一 轮 中 , 在 用 户 查看 所 有 查询 结果 后 ， 
t 的 值 会 增加 。 
重复 这 个 过 程 ， 直 到 主 列表 收敛 为 一 个 固定 的 列表 ， 训 练 
段 结束 。 每 个 特征 的 重要 程度 是 通过 将 特征 值 的 总 和 乘 其 权 
重 ， 表 示 每 个 查询 -网 页 对 测试 阶段 的 得 分 。 
训练 阶段 中 ， 对 每 个 网 页 考虑 上 个 特征 ， 目 标 是 将 基于 特 
征 和 用 户 反馈 的 排序 列表 收敛 到 一 个 固定 列表 。 在 此 过 程 中 需 
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要 确定 特征 的 重要 程度 ， 表 示 为 E。 开 始 时 ， 重 要 程度 被 认为 
是 相同 的 (=1/k)， 并 将 每 个 列表 中 的 网 页 按照 相应 特征 的 
值 排序 。 同 时 标记 网 页 的 点 击 位 置 ， 以 对 相应 特征 进行 评分 。 
然后 ， 为 查询 的 相关 网 页 建立 主 列表 ,通过 式 (6) 计算 网 页 的 
分 数 ， 并 以 降序 排列 向 用 户 显示 。 


k 
Score, , = by *FE +k* feag (6) 
i=1 


其 中 : Score, ,表示 查询 -网 页 对 的 得 分 是 特征 数量 ;下 


ld q 


是 与 查询 一 网 页 对 相关 的 第 i 个 特征 的 值 ，E, 表 示 第 i 个 特征 


对 应 的 重要 程度 : Serg 表示 用 户 对 所 配对 的 查询 一 网 页 


(d — q) 反馈 的 特征 值 。 
在 网 页 排序 中 ， 根 据 优先 级 随机 方法 〔 轮 盘 和 s- 贪 焚 的 组 
合 ) 选择 10 个 向 用 户 显 示 ， 用 户 将 点 击 显示 网 页 。 如 果 相 关 ， 
则 用 户 反 馈 的 特征 将 会 得 到 奖励 ， 否 则 就 会 受到 惩罚 。 换 名 话 
说 ， 如 果 该 特征 对 网 页 正确 排序 有 贡献 ， 则 给 予 奖励 ， 否 则 将 
被 处 罚 。 重 要 程度 的 计算 如 下 : 


a=e” (7) 


e(t *D-e()-ax[-eqzr] (8) 

fe, (t4 Do fe, (0 +a x| -fe OFr] O 

其 中 a 表示 学 习 率 ; 表示 步 长 ， 数 值 为 0.01;， 是 时 间 。 
1=0 时 的 学 习 率 为 1， 随 着 时 间 的 推移 接近 零 ， 学 习 完 成 ; 7 
表示 奖励 , 这 个 参数 的 值 是 不 变 的 ，fej (1) 表示 在 1 时 刻 查 询 


-网 页 对 的 用 户 反 馈 值 ，e,(?) 表示 在 1 时 刻 对 应 于 第 i 个 特征 的 
权重 。 重 复学 习 过 程 ， 使 网 页 列表 收敛 到 一 个 固定 的 列表 。 
提出 的 GLUB-Rank 算法 的 伪 代 码 如 算法 1 所 示 ， 流 程 如 

图 2 所 示 。 
算法 1: GLUB-Rank 算法 
输入 

d, /查询 -网 页 矩阵 

g，// 查 询 列表 

value_clickk，// 用 户 点 击 web 搜索 结果 的 相关 概率 分 布 ， 
为 10* 11 维 矩 阵 

7，V 网 页 特征 值 矩阵 。 
输出 

E，// 特 征 的 重要 程度 

Rank test，// 最 终 排名 列表 。 
假设 

NEC Jd., 


then n4 s 


uu 
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法 


初始 化 
1: t7 O,punish = -1*reward, 5—0.01 ; 


2:forall vf Set vf; =0; 


3:fori-1,2,...g repeat Set E-1/g; 
个 与 使 用 第 特征 查询 相关 


4:fori-12,...g repeat Set 
的 网 页 排序 列表 。 

开始 

5: while t<N 

6 qe, /学 习 率 0-1 之 间 


7: fori-lton 


8: Bt fy * 8 + sumCE, * Yo o ) 来 选择 10 个 网 页 构 


成 排序 列表 网 页 R; 
9: 将 排序 列表 R 显示 给 用 户 ; 


10: PTR = 列表 R 中 第 一 个 相关 网 页 CQ， ) 的 位 置 


11: j Fi 根据 概率 value click, ; 点 击 列 表 及 中 的 网 


12: if 网 页 是 相关 的 them /奖励 
13: forp=1tog /对 所 有 特征 


14: if. 该 网 页 在 第 p 个 特征 排序 列表 的 顶端 位 置 
then 

15: e,(t+l)=e,(D) * a x | reward — e, (1) |; 
16: else 

17: e,(t*1) e, (r)* ax | punish — e, (I ; 
18: end 

19: end 


20: vf (CD) m wD +a x| reward —f,t) |; 


21: elseif 网 页 是 不 相关 的 then — //f&ij 


22: for p-1 tog /对 所 有 特征 

23: if 该 网 页 在 第 p 个 特征 排序 列表 的 底部 位 
then 

24: e, (1) 2 e, (0) - a x[ reward —e,(1) | ; 
25: else 

26: e (t+1) - e(t) * a x| punish — e, (t) | ; 
27: end 

28: end 


29: vf (1) =f + a x | punish — vf, () |; 


30: end 
31: tl; /直到 查询 会 话 结束 


^- HHTI 


ChinaXiv 合 作 期 


ax V : 上 | 
录用 稿 张 春 玲 ， 等 : ERRARE eR PD RO IL A d 擎 网 页 排序 算法 
32: end 相关 的 人 为 判断 三 个 组 成 部 分 。 
33: fori-ltom /所 有 网 页 对 于 本 文 方法 ， 设 置 学 习 轮 次 为 100， 奖 励 值 在 [0.5,0.85] 
34: Forj=l ton /所 有 查询 内 ， 考 虑 的 特征 数目 为 17。 
35: rank test; , =F Vi *e,; 41 评估 标准 
: 广泛 应 用 于 评估 信息 检索 的 评估 标准 有 前 n 位 的 精确 度 
(P@n )、 平 均 精 确 度 (MAP) 和 归 一 化 折 损 累积 增益 (NDCG)。 
: en 
分 别 描述 如 下 : 
P@n 标 准 显示 了 在 每 个 查询 对 应 的 最 终 排序 列表 中 ， 排 
To 本 
名 前 mn 个 网 页 中 是 相关 网 页 的 数量 ， 即 取 前 mn 个 查询 结果 ， 计 
| 初始 化 参数 ， 创 建 与 特征 相关 的 排序 列表 ， | TATIE AUTE 
pors A (10) 
n 
:本 概率 从 排序 网 页 列表 中 选择 10 个 网 页 Kd NOR, 表示 相关 网 页 排 在 前 n 位 的 数量 。 
将 选择 的 10 个 网 页 向 用 户 显示 MAP 表示 为 所 有 查询 准确 率 (AP) 的 平均 值 , 相关 网 页 在 系 


统 推 荐 列表 中 越 靠 前 ，MAP 就 越 高 。 对 于 每 个 查询 的 AP， 其 
表示 为 相关 网 页 P@n 的 平均 值 ， 表 示 如 下 : 


”点击 选 出 的 10 个 网 页 


DP@nxR,(n)) 
在 排 在 列表 P 的 顶部， 也 AP 2e 


i (11) 
排 在 列表 P 的 底部 ? T, 


其 中 ; N, TM R n) 分 别 代表 检索 到 的 网 页 数量 、 相 关 网 页 


惩罚 p 特 征 的 重 数量 和 第 nn 个 相关 网 页 的 二 进 制 函 数 ， 函 数值 为 1 表示 相关 网 
程度 页 ， 为 0 表示 无 关 网 页 。 

DCG 是 折 损 增益 值 , 等 级 高 的 网 页 在 推荐 列表 中 的 位 置 越 

mu c 靠 前 ， 则 该 值 越 襄 。NDCG Gn 是 对 DCG 进行 归 一 化 ， 表 示 


如 下 : 


n 2ron zl 
NDCG @n=2, Y. (12) 
^3 log(m +1) 


其 中 : rm) 表示 排序 列表 中 第 m 个 网 页 的 相关 率 ; Z, 是 归 一 


r(m) 
em TEE E " Es 
奖励 网 页 中 用 惩罚 网 页 中 用 户 化 常数 ，2" 1 表示 第 m 个 网 页 的 增益 ， 一 一 一 一 表示 增 
查询 反馈 的 特征 | | 查询 反馈 的 特征 log(m +1) 


n gram 一 ] 
益 折 损 ，》 一 一 一 
PEN 2, logm41) ^ 


示 第 nn 个 位 置 的 累计 增益 折 损 。 


42 基准 数据 集 
本 文 应 用 了 LETOR3 版 本 的 OHSUMED 数据 集 。 


| 根据 网 页 得 分 对 网 页 进行 排序 OHSUMED 是 一 个 医学 期 刊 网 络 数据 库 MEDLINE 的 一 个 子 集 
$ 该 集合 包含 了 348 566 条 记录 。 将 每 篇 文献 网 络 页 面 作为 一 个 
| amar | 网 页 。 另 外 ， 该 集合 由 106 个 查询 组 成 ，16 140 个 具有 相关 度 
图 2 GLUB-Rank 算法 的 流程 的 查询 一 网 页 对 。OHSUMED 包含 45 个 特征 ， 这 些 特征 由 查 
询 一 网 页 对 决定 ,其 中 一 些 特征 不 依赖 于 查询 一 网 页 对 .另外 ， 
4 ”实验 及 分 析 用 户 判断 类 型 有 三 个 ， 相关 的 、 部 分 相关 的 和 不 相关 的 。 


在 相同 的 条 件 下 对 提出 的 方法 进行 评估 和 比较 。 与 排序 相 。 43 性能 证 售 
关 的 基准 数据 集 有 网 页 集 、 查 询 格式 信息 以 及 与 查询 一 网 页 对 TEF REIN GLUN Kank SS SI Ranot a RAMIS NM 


A 
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算法 进行 比较 。 其中, 设置 推荐 列表 的 长 度 n=5、10 和 15 三 种 
情况 。 

图 3、4 显示 了 当 n=10 时 ,各 种 算法 在 P@10 和 NDCG@10 
方面 的 性 能 比较 。 其 中 横 坐 标 表示 前 10 个 列表 中 的 位 置 。 表 1 


给 出 了 n=5、10 和 15 时 ， 各 种 算法 的 平均 P@n、NDCG@n 和 
MAP@n 值 。 


通过 分 析 可 以 看 出 ， 各 种 方法 在 排序 列表 的 前 面 位 置 上 都 
较 好 的 性 能 , 位 置 越 后 性 能 越 低 。 另 外 , 在 不 同 的 n (T, 
n 值 越 大 ， 各 种 性 能 指标 也 有 所 下 降 。 这 是 因为 一 般 排序 算法 
对 相关 性 前 几 名 的 相关 网 页 排序 的 准确 性 都 较 高 ， 越 到 后 面 正 
确 排 序 的 难度 越 大 。 
从 各 种 方法 的 比较 来 看 ， 本 文 GLUB-Rank 方法 具有 优越 
的 性 能 。 虽 然 本 文采 用 的 列表 法 和 其 他 方法 采用 的 成 对 法 中 都 
利用 了 用 户 反 馈 和 列表 特征 ， 但 是 列表 法 呈现 出 更 好 的 结果 。 
对 于 RankSVM 方法 ,本 文采 用 的 在 线 强化 学 习 的 性 能 比 SVM 
分 类 器 更 好 。 另 外 ， 侧 重 于 中 低级 别 网 页 是 RankSVM 方法 中 
存在 的 问题 之 一 ， 其 最 终 排 序 模型 会 受到 更 多 相关 性 网 页 查询 
的 强烈 影响 。 相 比 之 下 ,，GLUB-Rank 算法 侧重 于 找到 相关 网 页 
将 其 插入 到 最 高 层次 。 同 时 ， 由 于 GLUB-Rank 算法 从 特征 
中 取 值 ， 所 以 不 管 是 否 要 查询 都 需要 计算 这 些 值 。 因 此 ， 该 算 
法 不 会 有 RankSVM 问题 。 相 比 而 言 RankBoost 算法 的 性 能 优 
于 其 他 两 种 对 比方 法 ， 这 证 明了 基于 强化 学 习 能 够 提高 性 能 。 
总 的 来 说 ， 提 出 的 GLUB-Rank 算法 能 够 给 出 合理 的 网 页 
排序 ， 在 P@n 和 NDCG 评价 标准 方面 具有 很 大 的 优越 性 ， 在 
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MAP 方面 也 与 现 有 的 较 佳 方法 保持 一 致 。 
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图 3 各 种 算法 的 P@10 性 能 比较 
0.8 
m GLUB-Rank 
0.7 
RankBoost 
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4 各 种 算法 的 NDCG@10 性 能 比较 


张 春 玲 ， 等 : 利用 (- 贪 林学 习 和 用 户 OiRA 5 AP 法 
dl 不 同 n 值 下 各 种 算法 的 平均 性 能 比较 
排序 算法 
性 能 指标 “列表 长 度 GLUB- 
和 RankBoost RankSVM 
n-5 0.531 0.479 0.431 
Pn n-10 0.503 0.443 0.407 
n=15 0.486 0.428 0.382 
n=5 0.543 0.406 0.359 
NDCG@n n-10 0.512 0.388 0.343 
n=15 0.495 0.367 0.323 
n=5 0.452 0.431 0.408 
MAP@n n=10 0.447 0.425 0.403 
n=15 0.443 0.420 0.397 


对 于 运行 时 间 


，RankSVM 算法 


长 ， 所 有 样本 训练 完 大 约 需 要 55 min 


间 为 1.3 s。 这 与 其 


的 训练 和 推荐 执行 时 间 最 


， 平 均 每 次 查询 的 失 


ZI 


所 选择 的 核 函 数 


JX. Ah SVM H 


又 验证 来 选择 模型 最 优 参数 


练 时 间 较 短 ， 训 练 
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也 耗 时 较 大 。RankBoost 算法 的 训 
时 间 约 为 34 min， 这 说 明 Boost 强 学 习 排 序 


器 学 习 速 度 较 快 。 在 不 考虑 用 户 反 馈 停留 时 间 下 ， 本 文 GLUB- 
Rank 算法 的 学 习 时 间 略 大 于 RankBoost 算法 ， 约 为 40 min, & 


询 
度 是 三 者 中 最 优越 
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统 将 用 户 反 馈 作 为 强化 信号 ， 减 少 了 固有 


响 。 首 先 根据 用 


户 查 询问 


的 。 


推荐 时 间 约 为 1.1s。 虽 然 本 文 方法 速度 不 是 最 快 ， 但 推荐 精 
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